在模板和搜索区域之间学习强大的功能匹配对于3D暹罗跟踪至关重要。暹罗功能匹配的核心是如何在模板和搜索区域之间的相应点上分配高特征相似性,以进行精确的对象本地化。在本文中,我们提出了一个新颖的点云登记驱动的暹罗跟踪框架,直觉是空间对齐相应点(通过3D注册)倾向于实现一致的特征表示。具体而言,我们的方法由两个模块组成,包括特定于特定的非局部注册模块和一个注册辅助的sindhorn模板 - 特征聚合模块。登记模块在模板和搜索区域之间的精确空间对齐中进行目标。提出了跟踪特异性的空间距离约束,以优化非局部模块中的交叉注意权重,以进行判别特征学习。然后,我们使用加权SVD来计算模板和搜索区域之间的刚性转换,并对齐它们以实现所需的空间对齐相应点。对于特征聚合模型,我们将转换模板和搜索区域之间的特征匹配作为最佳传输问题,并利用Sinkhorn优化来搜索异常型匹配匹配解决方案。同样,建造了登记辅助空间距离图,以改善无法区分的区域(例如光滑的表面)的匹配鲁棒性。最后,在获得的功能匹配地图的指导下,我们将目标信息从模板中汇总到搜索区域中以构建特定于目标的特征,然后将其馈送到一个类似中心点的检测头中以进行对象定位。关于Kitti,Nuscenes和Waymo数据集的广泛实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
无监督的域对点云语义分割的适应性引起了极大的关注,因为它在没有标记的数据中学习有效性。大多数现有方法都使用全局级特征对齐方式将知识从源域转移到目标域,这可能会导致特征空间的语义歧义。在本文中,我们提出了一个基于图形的框架,以探索两个域之间的局部特征对齐,可以在适应过程中保留语义歧视。具体而言,为了提取本地级特征,我们首先在两个域上动态构建本地特征图,并使用来自源域的图形构建存储库。特别是,我们使用最佳传输来生成图形匹配对。然后,基于分配矩阵,我们可以将两个域之间的特征分布与基于图的本地特征损失对齐。此外,我们考虑了不同类别的特征之间的相关性,并制定了类别引导的对比损失,以指导分割模型以学习目标域上的区分特征。对不同的合成到现实和真实域的适应情景进行了广泛的实验表明,我们的方法可以实现最先进的性能。
translated by 谷歌翻译
对比学习在图表学习领域表现出了巨大的希望。通过手动构建正/负样本,大多数图对比度学习方法依赖于基于矢量内部产品的相似性度量标准来区分图形表示样品。但是,手工制作的样品构建(例如,图表的节点或边缘的扰动)可能无法有效捕获图形的固有局部结构。同样,基于矢量内部产品的相似性度量标准无法完全利用图形的局部结构来表征图差。为此,在本文中,我们提出了一种基于自适应子图生成的新型对比度学习框架,以实现有效且强大的自我监督图表示学习,并且最佳传输距离被用作子绘图之间的相似性度量。它的目的是通过捕获图的固有结构来生成对比样品,并根据子图的特征和结构同时区分样品。具体而言,对于每个中心节点,通过自适应学习关系权重与相应邻域的节点,我们首先开发一个网络来生成插值子图。然后,我们分别构建来自相同和不同节点的子图的正和负对。最后,我们采用两种类型的最佳运输距离(即Wasserstein距离和Gromov-Wasserstein距离)来构建结构化的对比损失。基准数据集上的广泛节点分类实验验证了我们的图形对比学习方法的有效性。
translated by 谷歌翻译
基于暹罗网络的跟踪器将3D单一对象跟踪作为模板和搜索区域的点特征之间的互相关学习。由于跟踪过程中模板和搜索区域之间的外观差异很大,因此如何学习它们之间的稳健跨相关性以识别搜索区域中的潜在目标仍然是一个挑战性的问题。在本文中,我们明确使用变压器形成一个3D Siamese变压器网络,以学习模板和点云的搜索区域之间的强大互相关。具体来说,我们开发了一个暹罗点变压器网络,以了解目标的形状上下文信息。它的编码器使用自我注意力来捕获点云的非本地信息来表征对象的形状信息,而解码器则利用交叉注意来提取歧视点特征。之后,我们开发了一个迭代的粗到加密相关网络,以了解模板与搜索区域之间的稳健跨相关性。它通过交叉注意将模板与搜索区域中的潜在目标联系起来,制定了交叉功能的增强。为了进一步增强潜在目标,它采用了自我功能增强,该增强功能将自我注意力应用于特征空间的本地K-NN图来汇总目标特征。 Kitti,Nuscenes和Waymo数据集的实验表明,我们的方法在3D单一对象跟踪任务上实现了最先进的性能。
translated by 谷歌翻译
现有的自我监督的单眼估计方法可以摆脱昂贵的注释并获得令人鼓舞的结果。但是,当直接采用接受固定分辨率训练的模型以评估其他不同决议时,这些方法会遭受严重的性能降解。在本文中,我们通过学习场景深度的规模不变性,提出了一个分辨率自适应自我监督的单眼估计方法(RA-DEPTH)。具体而言,我们提出了一种简单而有效的数据增强方法,以生成具有任意尺度的同一场景的图像。然后,我们开发了一个双重高分辨率网络,该网络使用具有密集交互的多路径编码器和解码器来汇总多尺度特征,以进行准确的深度推理。最后,为了明确了解场景深度的规模不变性,我们在具有不同尺度的深度预测上制定了跨尺度的深度一致性损失。对Kitti,Make3D和NYU-V2数据集进行了广泛的实验表明,RA-DEPTH不仅可以实现最新的性能,而且还表现出很好的解决能力。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
大规模蛋白质语言模型(PLM)在蛋白质预测任务中的性能提高,范围从3D结构预测到各种功能预测。特别是,Alphafold(一种开创性的AI系统)可能会重塑结构生物学。但是,尚未探索超出结构预测的AlphaFold,Evoformer的PLM模块的效用。在本文中,我们研究了三个流行PLM的表示能力:ESM-1B(单序),MSA转换器(多个序列比对)和Evoformer(结构),并特别关注Evoformer。具体而言,我们旨在回答以下关键问题:(i)作为Alphafold的一部分,Evoformer是否会产生可预测蛋白质功能的表示形式? (ii)如果是的,可以替换ESM-1B和MSA转换器? (iii)这些PLM多少依赖于进化相关的蛋白质数据?在这方面,他们彼此补充吗?我们通过实证研究以及新的见解和结论来比较这些模型。最后,我们发布代码和数据集以获得可重复性。
translated by 谷歌翻译
基于草图的3D形状检索是一项具有挑战性的任务,这是由于草图和3D形状之间的较大域差异。由于现有方法是在相同类别上进行培训和评估的,因此他们无法有效地识别培训期间未使用的类别。在本文中,我们建议用于基于零素描的3D检索的新型域分解生成对抗网络(DD-GAN),该域可以检索训练过程中未访问的不看到的类别。具体而言,我们首先通过删除草图和3D形状的学习特征来生成域不变的特征和特定于域特异性特征,在该特征中,域,域,不变的特征用于与相应的单词嵌入在一起。然后,我们开发了一个生成的对抗网络,该网络将所见类别的特定域特征与对齐的域不变特征结合在一起,以合成样品,在其中使用相应的单词嵌入式生成了看不见类别的合成样本。最后,我们使用看不见类别的综合样本与可见类别的真实样本相结合来训练网络进行检索,以便可以识别出看不见的类别。为了减少域移位问题,我们利用未看到的未见样本来增强歧视者的歧视能力。通过鉴别器将生成的样品与未看到的看不见的样品区分开,生成器可以生成更现实的看不见的样品。 SHEREC'13和SHEREC'14数据集的广泛实验表明,我们的方法显着提高了看不见类别的检索性能。
translated by 谷歌翻译
图形神经网络(GNNS)在建模图形结构数据方面表明了它们的能力。但是,实际图形通常包含结构噪声并具有有限的标记节点。当在这些图表中培训时,GNN的性能会显着下降,这阻碍了许多应用程序的GNN。因此,与有限标记的节点开发抗噪声GNN是重要的。但是,这是一个相当有限的工作。因此,我们研究了在具有有限标记节点的嘈杂图中开发鲁棒GNN的新问题。我们的分析表明,嘈杂的边缘和有限的标记节点都可能损害GNN的消息传递机制。为减轻这些问题,我们提出了一种新颖的框架,该框架采用嘈杂的边缘作为监督,以学习去噪和密集的图形,这可以减轻或消除嘈杂的边缘,并促进GNN的消息传递,以缓解有限标记节点的问题。生成的边缘还用于规则地将具有标记平滑度的未标记节点的预测规范化,以更好地列车GNN。实验结果对现实世界数据集展示了在具有有限标记节点的嘈杂图中提出框架的稳健性。
translated by 谷歌翻译
培训广泛和深度神经网络(DNN)需要大量的存储资源,例如内存,因为在转发传播期间必须在存储器中保存中间激活数据,然后恢复以便向后传播。然而,由于硬件设计约束,诸如GPU之类的最先进的加速器(例如GPU)仅配备了非常有限的存储容量,这显着限制了在训练大规模DNN时的最大批量大小和性能加速。传统的记忆保存技术均受性能开销或受限互连带宽或特定互连技术的约束。在本文中,我们提出了一种新颖的记忆高效的CNN训练框架(称为Comet),利用错误界限的损耗压缩来显着降低训练的内存要求,以允许培训更大的模型或加速培训。不同于采用基于图像的有损压缩机(例如JPEG)的最先进的解决方案来压缩激活数据,我们的框架故意采用严格的错误控制机制来采用错误界限的损耗压缩。具体而言,我们对从改变的激活数据传播到梯度的压缩误差传播的理论分析,并经验探讨改变梯度对训练过程的影响。基于这些分析,我们优化了误报的损耗压缩,并提出了一种用于激活数据压缩的自适应误差控制方案。我们评估我们对最先进的解决方案的设计,其中包含五个广泛采用的CNN和Imagenet DataSet。实验表明,我们所提出的框架可以在基线训练中显着降低13.5倍,并分别在另一个最先进的基于压缩框架上的1.8倍,几乎没有准确性损失。
translated by 谷歌翻译